

(19)日本国特許庁 (JP)

(12) 公開特許公報 (A)

(11)特許出願公開番号

特開平7-271760

(43)公開日 平成7年(1995)10月20日

(51)Int.Cl.<sup>6</sup>

G 0 6 F 17/12  
15/16  
17/16

識別記号

15/16  
3 9 0 Z  
17/16

庁内整理番号

F I

技術表示箇所

G 0 6 F 15/ 324

15/ 347

K

審査請求 未請求 請求項の数 4 OL (全 18 頁)

(21)出願番号

特願平6-62241

(22)出願日

平成6年(1994)3月31日

(71)出願人 000005223

富士通株式会社

神奈川県川崎市中原区上小田中1015番地

(72)発明者 中西 賢

神奈川県川崎市中原区上小田中1015番地

富士通株式会社内

(74)代理人 弁理士 小笠原 吉義 (外2名)

(54)【発明の名称】 メモリ分散型並列計算機による連立1次方程式計算処理方法および計算機

(57)【要約】

【目的】 ブロック化した外積型のLU分解法により連立1次方程式を解くメモリ分散型並列計算機による連立1次方程式計算処理方法および計算機に関し、各プロセッサのLU分解の負荷を均等にするとともに、実質的なデータ転送コストを削減し、並列性を高めて高速化を図ることを目的とする。

【構成】 データを列ベクトルを束ねたブロックレベルでサイクリックな配置に並列転送で並べ換え、LU分解時に行列積の計算対象となるデータを分割し、分割したデータに対する行列積の計算と、データ転送とを並列に同時に実行し、LU分解した結果について、データを元の配置に戻し、さらに行列を行ベクトル方向に分割した配置になるように並べ換え、並列に前進／後進代入の処理を行う。



## 【特許請求の範囲】

【請求項1】 複数のプロセッサを備え、各プロセッサ間でデータ転送を行うことのできるメモリ分散型並列計算機(1)を用い、係数行列を各プロセッサに分配して、ブロック化した外積型のLU分解法により連立1次方程式を解くメモリ分散型並列計算機による連立1次方程式計算処理方法において、前記メモリ分散型並列計算機の各プロセッサに分散されて配置されているLU分解の対象となる行列を、列ベクトルを束ねたブロックレベルでサイクリックな配置に並列転送でもって動的に配置しなおす処理過程と、各プロセッサに配置されたブロックについてLU分解を行う処理過程と、LU分解した結果について前進／後進代入処理を実行する処理過程とを有することを特徴とするメモリ分散型並列計算機による連立1次方程式計算処理方法。

【請求項2】 複数のプロセッサを備え、各プロセッサ間でデータ転送を行うことのできるメモリ分散型並列計算機(1)を用い、係数行列を各プロセッサに分配して、ブロック化した外積型のLU分解法により連立1次方程式を解くメモリ分散型並列計算機による連立1次方程式計算処理方法において、各プロセッサに配置されたブロックについてLU分解を行う途中で行列積の計算をするとき、行列積の計算対象となるデータを分割して各プロセッサに転送し、分割したデータに対する各プロセッサにおける行列積の計算と、他の分割したデータについての次の行列積の計算に用いる部分の並列転送とを同時に実行する処理を繰り返すことにより全体の計算を行う処理過程と、LU分解した結果について前進／後進代入処理を実行する処理過程とを有することを特徴とするメモリ分散型並列計算機による連立1次方程式計算処理方法。

【請求項3】 複数のプロセッサを備え、各プロセッサ間でデータ転送を行うことのできるメモリ分散型並列計算機(1)を用い、係数行列を各プロセッサに分配して、ブロック化した外積型のLU分解法により連立1次方程式を解くメモリ分散型並列計算機による連立1次方程式計算処理方法において、前記メモリ分散型並列計算機の各プロセッサに分散されて配置されているLU分解の対象となる行列を、列ベクトルを束ねたブロックレベルでサイクリックな配置に並列転送でもって動的に配置しなおす処理過程と、各プロセッサに配置されたブロックについてLU分解を行う処理過程と、LU分解した結果について、ブロックレベルのサイクリックなデータ配置から行列を均等に列ベクトル方向に分割した配置を介して、行列を行ベクトル方向に分割した配置になるよう各プロセッサ間でデータを並列に転送し、並列に前進／後進代入の処理を行う処理過程とを有することを特徴とするメモリ分散型並列計算機による連立1次方程式計算処理方法。

$$B^{(k)} = ((L_1^{(k)})^T, (L_2^{(k)})^T)^T U_1^{(k)}$$

【請求項4】 複数のプロセッサを備え、各プロセッサ間でデータ転送を行うことのできるメモリ分散型並列計算機(1)であって、係数行列を各プロセッサに分配して、ブロック化した外積型のLU分解法により連立1次方程式を解くメモリ分散型並列計算機において、LU分解の対象となる行列を、各プロセッサに対して、列ベクトルを束ねたブロックレベルでサイクリックな配置になるように並列転送により配置しなおすデータ再配置処理手段(2)と、LU分解における行列積の計算の際に、行列積の計算対象となるデータを分割して各プロセッサに転送し、分割したデータに対する各プロセッサにおける行列積の計算と、他の分割したデータについての次の行列積の計算に用いる部分の並列転送とを同時に実行する処理を繰り返すことにより全体の計算を行うLU分解処理手段(3)と、LU分解した結果について、ブロックレベルのサイクリックなデータ配置から行列を均等に列ベクトル方向に分割した配置を介して、行列を行ベクトル方向に分割した配置に変え、並列に前進／後進代入の処理を行う前進／後進代入処理手段(4)とを備えたことを特徴とする連立1次方程式を解くメモリ分散型並列計算機。

## 【発明の詳細な説明】

## 【0001】

【産業上の利用分野】 本発明は、複数のプロセッサ間で通信を行って処理を進めるマルチプロセッサシステムにより、高速に連立1次方程式を解くことができるようとしたメモリ分散型並列計算機による連立1次方程式計算処理方法および計算機に関する。

【0002】 連立1次方程式を高速に解く技術は、計算機の利用技術として非常に重要である。特に、高並列計算機により効率よく解く場合には、単なる数学的手法にとどまらず並列性を活かして、高並列計算機の特性を最大限に利用することのできる技術が必要になる。

## 【0003】

【従来の技術】 並列処理向きの連立1次方程式を解くアルゴリズムとして、ブロック化した外積型のLU分解法が知られている。図26は、そのブロック化した外積型のLU分解法の概略を説明するための図である。

【0004】 外積形式のガウスの消去法をブロック化した方法で、図26に示す配列AをLU分解する。ブロック幅をdとする。この方法では以下のようないくつかの処理を行う。k番目の処理で、更新部分A<sup>(k)</sup>を次の計算で更新する。

## 【0005】

$$A^{(k)} = A^{(k)} - L_2^{(k)} \cdot U_2^{(k)} \quad \dots (1)$$

k+1番目の処理では、A<sup>(k)</sup>をブロック幅dで分解して、dだけ小さいマトリックスを同じ式で更新する。

【0006】 L<sub>2</sub><sup>(k)</sup>, U<sub>2</sub><sup>(k)</sup>は以下の式で求める必要がある。式(1)で更新を行う際に、

と分解し、

$$U_2^{(k)} = (L_1^{(k)})^{-1} U_2^{(k)}$$

と更新する。

【0007】このようなブロック化した外積型のLU分解法をメモリ分散型並列計算機で実行する場合には、各プロセッサの負荷ができるだけ均等になるように、各プロセッサのメモリにデータを効率よく分配し、また各プロセッサ間で処理対象データの交換を効率よく行う必要がある。しかしながら、従来、ユーザインタフェースの簡略化などの面から、ブロック化されたデータを各プロセッサに順番に配置するようなことが考えられているだけであり、必ずしも各プロセッサのLU分解の負荷が均等になってはいなかった。また、プロセッサ間でのデータ通信も並列性が十分でないため、通信コストの増大を招いていた。

#### 【0008】

【発明が解決しようとする課題】大規模な連立1次方程式を解くには、CPUの性能と大規模なメモリシステムが必要である。メモリ分散型のマルチプロセッサで連立1次方程式を高速に解くには、各プロセッサのメモリにデータを効率よく配置することと、効率のよいデータの転送を行う方式を考える必要がある。

【0009】また、問題を解くユーザインタフェース（ホストのアプリケーションインタフェース）を煩雑にせずに実現する必要がある。本発明は上記問題点の解決を図り、性能を引き出すために負荷を分散する最適なデータ配置を動的に行い、データの転送時間が少なくかつ転送を計算と同時に実行する方法を提供することを目的とする。

#### 【0010】

【課題を解決するための手段】図1は本発明の原理説明図である。本発明は、上記の問題を解決するため、連立1次方程式の解法の1つである外積形式のガウスの消去法をブロック化した方法を、以下のように実現する。

【0011】メモリ分散型並列計算機1は、複数のプロセッサを備え、任意の2つのプロセッサが直接通信を行うことができる計算機である。

① メモリ分散型並列計算機1におけるデータ再配置処理手段2は、列ベクトルを束ねたブロックを各プロセッサ（以下、PEという）に分散して配置しなおす。この配置に必要なデータ転送を、並列に行うことにより高速化する。

【0012】② LU分解処理手段3は、ブロックのLU分解を行う途中で行列積の計算を行うとき、データを各PEに転送する。このときデータを分割して転送し、分割したデータに対する計算を各PEで行い、これを繰り返すことにより全体の計算を行う。ここで、最初の転送時間が少なく、かつ以降の転送が計算と同時にできる方法を用い、実際の転送時間が計算時間と重なることにより非常に短くなったように見えるようにする。

【0013】③ 前進／後進代入処理手段4は、LU分解したデータを前進／後進代入を行って並列に効率よく解くために、ブロックレベルのサイクリックなデータ配置から行列を均等に列ベクトル方向に分割した配置を介して、行列を行ベクトル方向に分割した配置に並べ替え、前進／後進代入を実行する。

#### 【0014】

【作用】LU分解を効率よく並列に実行するために、実際の計算を行う前に行列を列ベクトル方向に分割して配置していたものを、ブロックレベルでサイクリックな配置に動的に並列に配置しなおす。

【0015】LU分解を行うまでの行列積を効率よく並列に行うために、各プロセッサのベクトル処理と並列実行をバランスさせ、計算を行うのに必要な転送を、見かけ上、1つのプロセッサから1つのプロセッサへの転送に要する時間程度で行なえるようにする。

【0016】ブロックレベルでサイクリックに並べ替えたデータ配置でLU分解を行った後、ブロックレベルのサイクリックなデータ配置から行列を均等に列ベクトル方向に分割した配置を介して、行列を行ベクトル方向に分割した配置に変える。この転送を並列に行う。その結果について、並列に前進／後進代入の処理を行って解く。

【0017】以上のように、データを並列転送で再配置することにより、LU分解の負荷を均等にし、1対nプロセッサ間通信のコストを見かけ上、1対1のプロセッサ間通信のコストに下げ、前進／後進代入処理における方程式を並列に解くことができるようデータを並列転送で再配置する。

#### 【0018】

【実施例】以下、本発明の実施例を図を用いて説明する。図2は本発明の実施例に係るメモリ分散型並列計算機の例、図3は図2に示すプロセッサ（PE）の構成を示す図である。

【0019】本発明は、例えば図2に示すようなハードウェアを持つメモリ分散型並列計算機によって実現される。各プロセッサ（PE）10はクロスバーネットワーク15に接続され、それぞれスカラ演算を行うスカラユニット11と、ベクトル演算を行うベクトルユニット12と、プログラムの命令列および演算対象データを記憶する主記憶装置13と、任意の他のプロセッサとの間でクロスバーネットワーク15を介して通信を行うPE間通信ユニット14とからなる。

【0020】各プロセッサ10は、例えば図3に示すように構成され、スカラユニット11は、主記憶装置13のデータを一時的に保持するキャッシュメモリ21、演算に用いる汎用レジスタ／浮動小数点レジスタ22、スカラ命令を実行するスカラ演算機23などからなる。主記憶装置13からフェッチした命令がベクトル命令であるときには、ベクトルユニット12が起動される。ベク

トルユニット12は、主記憶装置13からデータをロードするためのロードパイプライン24、主記憶装置13へデータをストアするためのストアパイプライン25、ベクトル演算対象の一連のデータを保持するベクトルレジスタ26、特定の演算対象データをマスクするマスクレジスタ27、演算対象データを指定するマスクパイプライン28、ベクトルデータの乗算を行う乗算パイプライン29、ベクトルデータの加減算または論理演算を行なう加算／論理演算パイプライン30、ベクトルデータの除算を行う除算パイプライン31を備える。

【0021】次に、本発明により連立1次方程式を解く方式について詳細に説明する。

#### [1] 動的にデータを並べ換える方法

初めに、動的にデータを並べ換える方法について説明する。

【0022】図2に示すようなメモリ分散型並列計算機において、データは分散されて配置されている。二次元配列の場合、列方向の部分に分割して各プロセッサ(P.E.)10に割り当てる。この二次元配列の行列がある幅を持ったブロックを集めたものと考えて、このブロックを並べ換える。

【0023】 $A(n, m) = A(n, 1 : d) + A(n, d+1 : 2d) + A(n, 2d+1 : 3d) + \dots$

$$= A_1 + A_2 + A_3 + \dots + A_k$$

ただし、 $A_j = A(n, (j-1)*d+1 : j*d)$ これを以下のように並べ換える。プロセッサ数を#peとする(プロセッサ*i* (*i*=1, ..., #pe))。

【0024】ブロックA<sub>j</sub>をmod(j-1, #pe)+1となるプロセッサに割り付ける。mod(a, b)は整数aを整数bで割ったときの剰余を表す。配列Aと同じ大きさの配列Bを、同じように各プロセッサに分散して割り付ける。図2に示すメモリ分散型並列計算機では、各プロセッサはクロスバーネットワーク15に結合されていて、同時に転送を行うことができる。また、同じプロセッサに対して同時に読み込みと書き込みができる。この機能を使って上記の並べ換えを図4に示すような手順で行う。

【0025】図4は本発明の実施例における並べ換えの処理フローを示す。各プロセッサ(P.E.)に、ブロックA<sub>j</sub>を順番に同じ数だけ並べてAとする。ブロックの総数j<sub>t</sub>はプロセッサ数#peで割り切れるように並べる。1つのプロセッサにあるブロックの数#bを、#b=j<sub>t</sub>/#peとする。

【0026】並べ換えの処理では、まず図4に示すステップS1において、count=0とし、mod(n<sub>1</sub>\*#b, #pe)=0である最小の正の整数n<sub>1</sub>を探す。次に、ステップS2において、各P.E.のP.E.番号をpno(pno=1, ..., #pe)としたとき、各P.E.でk=1+(pno-1)/n<sub>1</sub>とする。

【0027】ステップS3において、各P.E.で次の計算をする。

$$p = (pno - 1) * #b + k$$

$$p_1 = (p - 1) / #pe$$

$$p_2 = mod(p - 1, #pe)$$

$$q = p_2 * #b + p_1 + 1$$

ステップS4において、B<sub>q</sub>=A<sub>p</sub>の転送を各P.E.で行う。ここでA<sub>p</sub>は各P.E.にあり、B<sub>q</sub>は各々異なったP.E.になるため、転送は完全に並列に行なうことができる。

【0028】ステップS5において、count=count+1とする。ステップS6において、count>#bであるかどうかを判定する。count>#bであれば、この処理を終了し、count>#bでなければステップS7の処理を行う。

【0029】ステップS7において、各P.E.で次の計算をする。

$$k = k + 1$$

$$k = mod(k - 1, #b) + 1$$

この後、ステップS3へ戻り、同様に処理を繰り返す。

【0030】図5は実施例におけるブロックの転送例を示す。図5の例では、#pe=4, #b=4である。

A, Bにおける1つの矩形は1ブロックを表し、各ブロック内の数字は説明のためのブロックの番号を表す。図4の処理フローに示すように、mod(#b, #pe)=0のため、n<sub>1</sub>=1となり、P.E.1においてk=1, P.E.2においてk=2, P.E.3においてk=3, P.E.4においてk=4となる。したがって、1回目の転送パスでは、P.E.1の配列Aの1番目のブロック1はP.E.1の配列Bの1番目に、P.E.2の配列Aの2番目のブロック6はP.E.2の配列Bの2番目に、P.E.3の配列Aの3番目のブロック11はP.E.3の配列Bの3番目に、P.E.4の配列Aの4番目のブロック16はP.E.4の配列Bの4番目に転送される。

【0031】続いて、2回目の転送パスにおいて、k=2(P.E.1), k=3(P.E.2), k=4(P.E.3), k=1(P.E.4)となり、P.E.1の配列Aの2番目のブロック2はP.E.2の配列Bの1番目に、P.E.2の配列Aの3番目のブロック7はP.E.3の配列Bの2番目に、P.E.3の配列Aの4番目のブロック12はP.E.4の配列Bの3番目に、P.E.4の配列Aの1番目のブロック13はP.E.1の配列Bの4番目に転送される。

【0032】同様に、3回目の転送パスにおいて、k=3(P.E.1), k=4(P.E.2), k=1(P.E.3), k=2(P.E.4)となり、P.E.1の配列Aの3番目のブロック3はP.E.3の配列Bの1番目に、P.E.2の配列Aの4番目のブロック8はP.E.4の配列Bの2番目に、P.E.3の配列Aの1番目のブロック9はP.E.1の配列Bの3番目に、P.E.4の配列Aの2番目のブロック14はP.E.2の配列Bの4番目に転送される。

【0033】同様に、4回目の転送パスにおいて、k=

$k=1$  (P E 1),  $k=2$  (P E 2),  $k=3$  (P E 3),  $k=4$  (P E 4) となり, P E 1 の配列 A の 4 番目のブロック 4 は P E 4 の配列 B の 1 番目に, P E 2 の配列 A の 1 番目のブロック 5 は P E 1 の配列 B の 2 番目に, P E 3 の配列 A の 2 番目のブロック 10 は P E 2 の配列 B の 3 番目に, P E 4 の配列 A の 3 番目のブロック 15 は P E 3 の配列 B の 4 番目に転送される。

【0034】以上のように転送してデータを並べ換えることにより, 1つのP Eにおいて, 同時に複数の読み込みまたは同時に複数の書き込みが起きるような衝突がなく, かつ同じP Eでは同時に1つの読み込みと1つの書き込みができるので, 転送は完全に並列に行われるとともに, 衝突による待ち合わせが生じることはない。

#### 【0035】〔2〕行列積の効率的な方法

前述のようにして並べ換えたものについて, ブロック化したL U分解を行う方法を以下に説明する。図6は, 実施例におけるL U分解の対象となる行列の例を示す。図26で説明したように外積形式のガウスの消去法をブロック化した方法でL U分解を実行する。そのため, 図6に示す更新部分 Uについて,  $U = U - C \times R$  の計算を行って, Uを更新する。

【0036】この計算では, 行列 C を各P Eに転送する必要がある。考え方として簡単な方法は, 単に行列 C 全体を各P Eに転送する方法である。行列 C の部分を各P Eに転送してから行列積の計算を行う場合, 行列 C 全体を2分木の方法により各P Eに2の巾乗のパターンで転送を行う方法が考えられる。すなわち, P E 1 から残りの# p e - 1 個のP E に転送することを考えた場合, 次のように転送する。

【0037】① P E 1 から P E 2 へ行列 C を転送する。  
②次に, P E 1 から P E 3 への転送と, P E 2 から P E 4 への転送を同時に使う。③次に, P E 1 から P E 5 へ, P E 2 から P E 6 へ, P E 3 から P E 7 へ, P E 4 から P E 8 への転送を同時に使う。このような転送を続けると, 全体の転送コストは  $\text{LOG}_2 (\# p e)$  のオーダとなる。

【0038】本実施例では, この全体の転送コストを削減するために, 行列 C を行方向に分割して計算を行う方法を採用する。以下にその方法を説明する。ブロック化したL U分解の k 番目のステージで,  $A_k$  について L U 分解を行ったあと, 上記のような行列積を行う。このとき, 行列 C を n 個に分割する。それを順に C1, C2, C3, …, Cn とする。n は,  $\# p e / n > 1$  で,  $\text{LOG}_2 (\# p e / n) < n$  となるように決める。

【0039】図7に示すように, 8個のP E 1～P E 8 で4分割した行列 C1～C4について計算を行う場合を例に説明する。P E 1 がブロック R1 のデータを, P E 2 がブロック R2 のデータを, …, P E 8 がブロック R8 のデータを保持していたとする。各P E の行列 R<sub>i</sub> と行列 C<sub>j</sub> の積の行列積で部分的に更新を行う。図7に示

すハッチングの部分は, 第1回目の更新を行う部分を表す。

【0040】各P E の行列 R<sub>i</sub> と行列積を行う行列 C<sub>j</sub> は, P E 1 から P E 8 まで順に表すと, 次のとおりである。

1回目の計算: C1, C2, C3, C4, C1, C2, C3, C4

2回目の計算: C4, C1, C2, C3, C4, C1, C2, C3

3回目の計算: C3, C4, C1, C2, C3, C4, C1, C2

4回目の計算: C2, C3, C4, C1, C2, C3, C4, C1

このような計算を行うためには, C<sub>k</sub> の転送を行う必要がある。このため, 次のように転送を行う。

【0041】1回目の転送でブロック k があるプロセッサは  $p = \text{mod} (k-1, \# p e) + 1$  である。このプロセッサ p から, 行列 C を n 分割した C<sub>i</sub> を  $\text{mod} (p-2+i, \# p e) + 1$  へ転送する。2回目からは, 1回目の転送で転送された n 個のプロセッサのデータを並列に残りのプロセッサに転送する。順次 t 回目の転送では  $2 * * (t-1) * n$  (なお, \*\* は巾乗を表す) のデータを使って並列に転送する。このようにして各プロセッサに C<sub>i</sub> を転送する。

【0042】図8は, P E 1 に行列 C があった場合の転送例を示す。図8に示すように, 1回目の転送で C1 は P E 1 へ, C2 は P E 2 へ転送される。2回目の転送では, C1 は P E 1 から P E 3 へ, 同時に C2 は P E 2 から P E 4 へ並列に転送される。次の転送では, C1 は P E 1 から P E 5 へ, P E 3 から P E 7 へ転送され, 同時に C2 は P E 2 から P E 6 へ, P E 4 から P E 8 へ並列に転送される。

【0043】ここで, 2回目の計算で必要なデータは, 1回目の計算を行っている間に, 別の領域に転送しておくことにより, 転送と計算とを同時に使うことができる。図9および図10は, 行列 C がブロック k つまり  $p = \text{mod} (k-1, \# p e) + 1$  にあったときで n が偶数の場合の処理フローを示す。図9および図10に示す処理フローチャートでは, 1回目の計算, つまり奇数回目の計算では第1のワーク領域 (W1), 偶数回目の計算では第2のワーク領域 (W2) を用いて, 計算を行う。

【0044】まず, ステップ S21において, C<sub>i</sub> ( $i = 1, \dots, n$ ) をプロセッサ mod (p+i-2, # p e) + 1 のワーク領域 W1 に転送し, \$e = 0 とする。ステップ S22において, \$n = N \* 2 \* \* \$e, \$t = min (\$n, # p e - \$n) とする。min は, 最小値を得る関数である。

【0045】ステップ S23において, \$t 個のプロセッサから C<sub>i</sub> をワーク領域 W1 に転送する。また, s =

$\text{mod}(\text{p} + \text{j} - 2, \# \text{pe}) + 1, \text{d} = \text{mod}(\text{p} + \text{s} \cdot \text{t} + \text{j} - 2, \# \text{pe}) + 1$  とし、プロセッサ  $s$  からプロセッサ  $d$  に  $j = 1, \dots, s \cdot t$  の  $s \cdot t$  個を並列に転送する。

【0046】ステップ S 24において、 $\text{s} \cdot \text{e} = \text{s} \cdot \text{e} + 1$  とする。ステップ S 25において、 $\text{s} \cdot n > \text{s} \cdot t$  かどうかを判定し、 $\text{s} \cdot n$  が  $\text{s} \cdot t$  より大きければステップ S 22へ戻り、 $\text{s} \cdot n$  が  $\text{s} \cdot t$  より小さければステップ S 26の処理を行う(図 10)。

【0047】ステップ S 26において、 $c \cdot t = 1$  とする。ステップ S 27において、 $c \cdot t == 1$  であるかどうかを判定する。 $c \cdot t == 1$  であればステップ S 29へ進み、 $c \cdot t == 1$  でなければステップ S 28の処理を行う。

【0048】ステップ S 28において、後述するステップ S 33の処理の終了を待って、プロセッサ  $p$  についてのみ、 $C_i$  ( $i = c \cdot t$ ) をデータとしてワーク領域 W1 へ転送する。

【0049】ステップ S 29において、プロセッサ  $i$  からプロセッサ  $\text{mod}(\text{I}, \# \text{pe}) + 1$  にデータを転送する(W1 から W2 への転送)。ステップ S 30において、開始後、各プロセッサにある  $C_i$  のデータで対応する部分の行列の更新を並列に行う(W1 を使って計算)。

【0050】ステップ S 31において、 $c \cdot t > 1$  であるかどうかを判定する。 $c \cdot t > 1$  であればステップ S 33 の処理へ進み、 $c \cdot t > 1$  でなければステップ S 32の処理を行う。

【0051】ステップ S 32において、ステップ S 29 の処理(W1 から W2 への転送)の終了を待つ。ステップ S 33において、 $c \cdot t = c \cdot t + 1$  とする。プロセッサ  $p$  についてのみ、 $C_i$  ( $i = c \cdot t$ ) をデータとしてワーク領域 W2 へ転送する。

【0052】ステップ S 34において、 $c \cdot t == n$  であるかどうかを判定する。 $c \cdot t == n$  であればステップ S 36 の処理へ進み、 $c \cdot t == n$  でなければステップ S 35の処理を行う。

【0053】ステップ S 35において、プロセッサ  $i$  からプロセッサ  $\text{mod}(\text{I}, \# \text{pe}) + 1$  にデータを転送する(W2 から W1 への転送)。ステップ S 36において、ワーク領域 W2 のデータを使って対応する行列の更新を各プロセッサで並列に行う。

【0054】ステップ S 37において、 $c \cdot t = c \cdot t + 1$  とする。ステップ S 38において、 $c \cdot t > n$  であるかどうかを判定する。 $c \cdot t > n$  であれば処理を終了し、 $c \cdot t > n$  でなければステップ S 27 の処理へ戻る。

【0055】行列 C の分割方法について行方向の分割を説明したが、列方向に分割しても同様に処理を行うことができる。ただし、並列化とベクトル化のバランスを考えると、適当なベクトル長でブロック幅を持たせること

のできる行方向での分割のほうが好ましい。

【0056】この効果は、行列 C 全体を 2 分木の方法で、各 P E に転送した場合、 $\sim \text{LOG}_2(\# \text{pe})$  のオーダーの転送時間がかかるのに対して、 $\sim 1 - (\text{LOG}_2(\# \text{pe} / n)) / n$  のオーダーとなり # pe 数が大きいときは、非常に高速である。

#### 【0057】

【3】前進／後進代入を並列に行う上での方式 LU 分解を行った後での前進／後進代入にも高速化のためには並列性が必要である。この並列性を引き出すために、次のように行う。

【0058】第 1 に、LU 分解を行うときに図 5 に示すようにブロックを各 P E に対してサイクリックに割り当てているので、これを元の割り付け方法に戻す。次に、元の行列を列方向に分割していたのを、行方向に分割したデータ配置に変更し、この配置をもとに前進／後進代入を並列に行う。

【0059】すなわち、LU 分解を行うときには、図 11 (A) の行列 A のように、列ベクトルを各 P E に分散して配置している。これを前進／後進代入を並列に実行できるように、図 11 (B) の行列 B のような配置に変更し、行ベクトルを各 P E に配置する。これを並列に実行して並べ換える。

【0060】この変換を並列に行うために、行列を各 P E に分散配置される境界で図 12 に示すように分割して、

$$A = (a_{ij}) \quad [i = 1, \dots, \# \text{pe}, j = 1, \dots, \# \text{pe}]$$

とする。なお、# pe はプロセッサ数であり、図 12 はプロセッサ数 # pe が 5 である場合を示している。

【0061】行ベクトルを各 P E に割り付けた行列 A と、同じ大きさの行列を列ベクトルで割り付けた行列 B との間で、並べ換えのためのデータ転送を、図 12 に示すハッチング部分のような、対角方向のブロック要素について行う。

【0062】前述のように、図 2 に示す本実施例のメモリ分散型並列計算機では、各プロセッサに対して同時に 1 つの読み込みと 1 つの書き込みが可能である。図 13 に、図 11 に示す行列 A から行列 B への変換の処理フローチャートを示す。

【0063】図 13 のステップ S 41 において、各プロセッサ ( $1 \sim \# \text{pe}$ ) で、 $k = \text{プロセッサ番号}$ ,  $j = k$ ,  $\# c \cdot t = 1$  とする。ステップ S 42 において、並列に各プロセッサで  $B_{jk} = A_{jk}$  のデータの配置替えを行う。

【0064】ステップ S 43 において、 $k = \text{mod}(k, \# \text{pe}) + 1$ ,  $\# c \cdot t = \# c \cdot t + 1$  とする。ステップ S 44 において、 $\# c \cdot t > \# \text{pe}$  であるかどうかを判定する。 $\# c \cdot t > \# \text{pe}$  であれば処理を終了し、 $\# c \cdot t > \# \text{pe}$  でなければステップ S 42 の処理へ戻る。

【0065】行列Bは、図14に示すように、行方向に分割配置されている。ここで、行列BはLU分解できたとする。 $L U x = d$ を解くとき、 $L y = d$ を解き、 $U x = y$ を順に解く。これを並列に行うために、各PEに $d$ 、 $x$ 、 $y$ を重複して持つ。 $U x = y$ についても同様に行うことができるので、 $L y = d$ について説明する。

【0066】まず、PE1で $L_{11} \times y_1 = d_1$ を解く。PE1の $y_1$ を各プロセッサ上の変数yの $y_1$ の部分へ2の巾乗パターンで転送する。（#pe-1）個のPEで並列に $d_i = d_i - L_{11} \times y_1$ を行う（ $i = 2, \dots, #pe$ ）。

【0067】同様に、PE2で $L_{22} \times y_1 = d_1$ を解く。PE2の $y_2$ を各プロセッサ上の変数yの $y_2$ の部分へ2の巾乗パターンで転送する。（#pe-2）個のPEで並列に $d_i = d_i - L_{22} \times y_2$ を行う（ $i = 3, \dots, #pe$ ）。

【0068】同様に、PEkで $L_{kk} \times y_k = d_k$ を解く。PEkの $y_k$ を各プロセッサ上の変数yの $y_k$ の部分へ2の巾乗パターンで転送する。（#pe-k）個のPEで並列に $d_i = d_i - L_{kk} \times y_k$ を行う（ $i = k, \dots, #pe$ ）。

【0069】最後に、 $L_{55} \times y_5 = d_5$ を解いて、 $y_5$ を各プロセッサ上の変数yの $y_5$ の部分へ2の巾乗パターンで転送する。結果として、各プロセッサに解yが求まる。

【0070】次に、 $200 \times 200$ の行列を5プロセッサで解く場合を例にして、本発明の適用例を詳しく説明する。ブロック幅を10と仮定する。すなわち、この例では全部で $20 \text{ブロック} \times 20 \text{ブロック}$ の行列となっている。

【0071】この行列を各PEに配置すると、プロセッサ数が5であるので、各PEが担当する部分はそれぞれ $20 \text{ブロック} \div 5$ の4ブロックの列となる。これらのブロックを、図15(A)に示すように、PE1から順にブロック1、ブロック2、ブロック3、…、ブロック20とする。

【0072】並列に計算を実行する部分を各PEに均等に割り付けるために、図15(A)に示すデータ配置を、図15(B)に示すように並べ換える。ここでは、各ブロックをブロック・サイクリック(block cyclic)に並べ換えている。この並べ換えでは、例えばブロック2, 6, 10, 14, 18の転送を同時にを行い、読み込みと書き込みとが各PEでそれぞれ行われるようにして、並列転送を実現する。

【0073】並べ換えの結果、図15(B)に示すように、PE1の行列はブロック1, 6, 11, 16の並びとなり、以下PE2はブロック2, 7, 12, 17, PE3はブロック3, 8, 13, 18, PE4はブロック4, 9, 14, 19, PE5はブロック5, 10, 15, 20となる。

【0074】最初に、ブロック1をLU分解する。ブロック1(図16のb1)は、PE1だけで計算する。図16のハッチング部分が計算完了となる。図16はブロックb1と各PEの転送先となるワーク領域の関係を示す。各PEは第1および第2のワーク領域を持つ。PE1の第1ワーク領域をW11, 第2ワーク領域をW12, PE2の第1ワーク領域をW21, 第2ワーク領域をW22, PE3の第1ワーク領域をW31, 第2ワーク領域をW32, PE4の第1ワーク領域をW41, 第2ワーク領域をW42, PE5の第1ワーク領域をW51, 第2ワーク領域をW52とする。

【0075】図16にハッチングで示したブロックb1をC1～C3に3等分した場合を考える。この部分の計算が完了したならば、C1をPE1のW11へ、C2をPE2のW21へ、C3をPE3のW31へそれぞれ転送する。次に、その結果を使って、W11(C1)のデータをPE4のW41へ、W21(C2)のデータをPE5のW51へ並列転送する。

【0076】行列積の計算では、初めに各PEの第1のワーク領域(W11, W21, W31, W41, W51)に格納されたCiを使って計算を行う。図17に示すハッチング部分が最初に計算する部分である。PE1において $C1 \times R1$ の行列積が、PE2において $C2 \times R2$ の行列積が、PE3において $C3 \times R3$ の行列積が、PE4において $C4 \times R4$ の行列積が、PE5において $C5 \times R5$ の行列積がそれぞれ計算されることになる。

【0077】これらの計算と同時にオーバーラップしてW11からW22へ、W21からW32へ、W31からW42へ、W41からW52へ、並列にデータ転送を行うとともに、PE1が保持するブロックb1のC3をW12に転送する。

【0078】次に、各PEの第2のワーク領域(W12, W22, W32, W42, W52)に格納されたCiを使って計算を行う。図18に示すハッチング部分が次に計算する部分である。PE1において $C3 \times R1$ の行列積が、PE2において $C1 \times R2$ の行列積が、PE3において $C2 \times R3$ の行列積が、PE4において $C3 \times R4$ の行列積が、PE5において $C1 \times R5$ の行列積がそれぞれ計算されることになる。

【0079】これらの計算と同時にオーバーラップしてW12からW21へ、W22からW31へ、W32からW41へ、W42からW51へ、並列にデータ転送を行うとともに、PE1が保持するブロックb1のC2をW11に転送する。

【0080】3回目の計算では、各PEの第1のワーク領域(W11, W21, W31, W41, W51)に格納されたCiを使って計算を行う。図19に示すハッチング部分が計算する部分である。PE1において $C2 \times R1$ の行列積が、PE2において $C3 \times R2$ の行列積

が、PE3において $C_1 \times R_3$ の行列積が、PE4において $C_2 \times R_4$ の行列積が、PE5において $C_3 \times R_5$ の行列積がそれぞれ計算されることになる。

【0081】図15(B)に示すブロック2(図20のb2)に関するLU分解と対応する行列積の計算は、図20(A)に示すPE2のハッチング部分をLU分解し、計算に必要な部分をブロックb1と同じように $C_1 \sim C_3$ に3等分して転送することにより行う。

【0082】図20(B)はブロックb2と各PEの転送先となるワーク領域の関係を示す。C1をPE2のW21へ、C2をPE3のW31へ、C3をPE4のW41へそれぞれ転送する。次にその結果を使って、W21(C1)のデータをPE5のW51へ、W31(C2)のデータをPE1のW11へ並列転送する。

【0083】次に、各PEの第1のワーク領域(W1, W21, W31, W41, W51)に格納されたCiを使って計算を行う。図21に示すハッチング部分が今回計算する部分である。PE1において $C_2 \times R_1$ の行列積が、PE2において $C_1 \times R_2$ の行列積が、PE3において $C_2 \times R_3$ の行列積が、PE4において $C_3 \times R_4$ の行列積が、PE5において $C_1 \times R_5$ の行列積がそれぞれ計算されることになる。

【0084】これらの計算と同時にW21からW32へ、W31からW42へ、W41からW52へ、W51からW12へ並列にデータ転送を行うとともに、PE2が保持するブロックb2のC3をW22に転送する。

【0085】以下、図18および図19を用いて説明したブロックb1の場合と同様に計算と転送を行い、ブロックb2についての計算が終了すると、図15(B)に示すブロック3(図22のb3)に関するLU分解と対応する行列積の計算を行う。図22(A)に示すブロックb3をLU分解したあと、図22(B)に示すようにブロックb3を $C_1 \sim C_3$ に3等分し、各PEのワーク領域への転送を行う。そして、ブロックb3についても、図17ないし図19で説明したのと同様に計算と転送を行い、以下、ブロック4, 5, …, 20まで同様に処理してLU分解を完了する。

【0086】全てのブロックについてLU分解を行った後、最終処理として、サイクリックに並べ換えたブロックを元の並びに戻す。図23は、図15に示すようにブロック・サイクリックに並べ換えた行列を元の並びに戻す例を示している。例えばブロック2, 6, 10, 14, 18に着目すると、図23(A)から(B)への転送例から明らかなように、これらのブロックは同時に転送が可能である。

【0087】次に列方向に分割して配置していたものを行方向に分割する並びに並べ換えて、並列に前進／後退代入を行う。図24は、ブロック化された行列の対角ブロック方向の要素ブロックに着目して、並列転送で並べ換える例を示す。PE1の $A_{51}$ をPE5の1番目の領域

へ、PE2の $A_{12}$ をPE1の2番目の領域へ、……、というように並列転送を行って、ブロックを並べ換える。ブロックの並べ換えにより、配置が変わったところで、前進／後退代入を行う。

【0088】図25は、行方向に分割された行列と各PEの関係を示す。解ベクトルを求めるための $b_1, b_2, b_3, b_4, b_5$ は各PEで重複して保持する。計算が終了した時点で各PEが解ベクトルを持つことになる。計算手順は以下のとおりである。

【0089】(1)  $L_{11}x_1 = b_1$ をPE1で解く。  
(2)  $x_1$ を $b_1$ の領域に求めて、各PEへ転送する。  
 $b_1 = x_1$   
(3)  $i > 1$ なるPEiで $b_i = b_1 - L_{11} \times x_1$ を計算する。

【0090】(4) 次にPE2で、 $L_{22}x_2 = b_2$ を解いて $x_2$ を求める。

(5)  $x_2$ を各PEへ転送する。 $b_2 = x_2$   
(6)  $i > 2$ なるPEiで $b_i = b_i - L_{12} \times x_2$ を計算する。

【0091】以下、同様に繰り返して前進代入を終了する。前進代入のあと、後進代入も同様に行う。

#### 【0092】

【発明の効果】以上説明したように、本発明によれば、次のような効果がある。

① データの並べ換えを動的に行うことにより、並列に実行する部分を各プロセッサに均等に割り付けることができるようになり、並列に実行するまでの効率が向上する。実際に、ブロック化した外積型のガウスの消去法をもとにしたLU分解の行列積の部分に対しては、行列を列ベクトル方向に均等に分割して計算した場合の実効性能は、ハードウェア性能の6割5分程度である。これは計算過程が進むと行列積で更新する部分が小さくなり、配置されているプロセッサ数が急激に減少するので、並列効率が悪くなるためである。

【0093】これに対して、データをサイクリックに分割すると、つまり列ベクトルを束ねたブロックに番号を振り、その番号をiとしたとき、i番目のブロックが、 $\text{mod}(I-1, \# \text{pe}) + 1$ 番目のプロセッサ(#peはプロセッサ数)に割り付けられるように配置した場合には、実行性能は、ハードウェア性能の9割～9割5分程度が達成される。

【0094】② 行列積の部分の計算方法に関しては、行列積部分の計算に必要なデータを分割して、転送・計算する。このとき、本発明によれば転送の大部分を計算と同時に行うことができ、計算と同時にを行うことのできない最初の転送時間だけが見かけ上の転送時間となる。この転送も並列に行う工夫により、例えば2分木転送に比べて、大幅に転送時間を短縮することができる。この結果、単純に行列積で必要なデータを各プロセッサに2分木のパターンで転送する場合がLOG2(#pe)に

比例するのに比べ、転送時間は、転送するデータの分割数を $\# d i v$ とすると、 $1 + (\log_2(\# p e / \# d i v) / \# d i v)$ のオーダになり、第2項は0.5以下ににすることができる。したがって、2台以上あるシステムで特にプロセッサ数が大きくなった場合に非常に効率がよい。

【0095】③ また、最後に前進／後進代入をこのままの配置で解くと、列ベクトルは1つのプロセッサ上にあるため、前進／後進代入部分の並列性が利用できず、並列化できない。このため、サイクリックなデータの配置を、一度、列ベクトル方向に均等分割する配置に戻し、その後、行ベクトル方向に均等分割する配置に変える。このことにより、前進／後進代入部分を並列に実行することができるようになり、処理時間の大幅な短縮が可能になる。

#### 【図面の簡単な説明】

【図1】本発明の原理説明図である。

【図2】本発明の実施例に係るメモリ分散型並列計算機の例を示す図である。

【図3】図2に示すプロセッサの構成を示す図である。

【図4】本発明の実施例における並べ換えの処理フローを示す図である。

【図5】本発明の実施例におけるブロックの転送例を示す図である。

【図6】本発明の実施例におけるLU分解の対象となる行列の例を示す図である。

【図7】本発明の実施例における行列積の計算を説明する図である。

【図8】PE1に行列Cがあった場合の転送例を示す図である。

【図9】データの転送と行列積の計算の処理フローを示す図である。

【図10】データの転送と行列積の計算の処理フローを示す図である。

【図11】前進／後進代入処理時の並べ換えの例を示す図である。

【図12】前進／後進代入処理時の並べ換えを説明する図である。

【図13】前進／後進代入処理時の並べ換えの処理フローを示す図である。

【図14】前進／後進代入処理を説明する図である。

【図15】本発明の適用例の説明図である。

【図16】本発明の適用例の説明図である。

【図17】本発明の適用例の説明図である。

【図18】本発明の適用例の説明図である。

【図19】本発明の適用例の説明図である。

【図20】本発明の適用例の説明図である。

【図21】本発明の適用例の説明図である。

【図22】本発明の適用例の説明図である。

【図23】本発明の適用例の説明図である。

【図24】本発明の適用例の説明図である。

【図25】本発明の適用例の説明図である。

【図26】ブロック化した外積型のLU分解法の説明図である。

#### 【符号の説明】

1 メモリ分散型並列計算機

2 データ再配置処理手段

3 LU分解処理手段

4 前進／後進代入処理手段

【図2】



【図6】



【図1】



【図5】



【図3】



【図4】



【図12】

|                 |                 |                 |                 |                 |
|-----------------|-----------------|-----------------|-----------------|-----------------|
| A <sub>11</sub> | A <sub>12</sub> | A <sub>13</sub> | A <sub>14</sub> | A <sub>15</sub> |
| A <sub>21</sub> | A <sub>22</sub> | A <sub>23</sub> | A <sub>24</sub> | A <sub>25</sub> |
| A <sub>31</sub> | A <sub>32</sub> | A <sub>33</sub> | A <sub>34</sub> | A <sub>35</sub> |
| A <sub>41</sub> | A <sub>42</sub> | A <sub>43</sub> | A <sub>44</sub> | A <sub>45</sub> |
| A <sub>51</sub> | A <sub>52</sub> | A <sub>53</sub> | A <sub>54</sub> | A <sub>55</sub> |

【図25】



【図7】



【図11】



【図8】



【図13】



【図9】



【図14】



【図26】

【図10】



【図15】



【図16】



【図20】



【図17】



【図18】



【図19】



【図21】



【図22】



【図24】



【図23】

